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问题 解决 任务 中 行动 序列 的 二 分 类 建 模 : 
单 /两 参数 行动 序列 模型 
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摘 要 行动 序列 作为 一 种 典型 的 过 程 数 据 , 可 反映 被 试 解 决 问题 的 详细 步骤 。 鉴 于 行动 或 状态 转移 可 区 分 正 误 ， 
本 文 基于 二 分 类 Logistic 建 模 提 出 两 个 复杂 度 相 对 较 低 的 行动 序列 模型 一 一 单 / 两 参数 行动 序列 模型 (1P-/2P-ASMD); 
两 者 差异 在 于 是 否 允 许 自由 估计 问题 状态 的 区 分 度 。 通 过 实证 研究 和 模拟 研究 对 比 探究 两 个 新 模型 与 基于 多 分 类 
Logistic 建 模 的 序列 作答 模型 (SRM) 的 表现 。 研 究 结果 主要 发 现 : (1) 两 个 ASM 能 够 获得 与 SRM 几乎 一 致 的 问题 
解决 能 力 估 计 值 ; (2) 两 个 ASM 的 计算 耗 时 明显 低 于 SRM 的 ; (3) 2P-ASM HE 1P-ASM 的 综合 表现 更 优 .总 之 , 两 个 
模型 复杂 度 相 对 低 的 ASM 均 能 够 实现 对 行动 序列 的 有 效 分 析 ， 有 益 于 行动 序列 数据 分 析 的 落地 。 
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引言 


问题 解决 是 指 在 没有 清晰 解决 方案 的 任务 情 
境 中 , 个 体 通 过 一 系列 认 知 加 工 过 程 ， 应 用 认 知 技 
能 和 认 知 活动 , 在 问题 空间 中 进行 探索 , 将 问题 从 
初始 状态 转变 为 问题 解决 目标 状态 的 过 程 (Newell 
& Simon, 1972)。 问 题解 决 过 程 中 ,被 试 需要 根据 问 
题解 决 的 目标 构建 计划 ,选择 策略 并 预 估 该 计划 的 
执行 能 否 达到 期 望 的 状态 ; 同时 , 被 试 还 需要 根据 
问题 目标 对 行动 结 采 进行 检查 ， 发现 问题 并 采取 补 
救 措施 ， 及 时 调整 先前 的 行动 策略 。 因 此 ， 对 问题 
解决 能 力 的 测量 , 不 仅 要 关注 问题 解决 的 最 终结 
还 需要 关注 问题 解决 过 程 中 系列 行为 ( 刘 耀 辉 等 ， 
2022)。 比 如 ， 国 际 学 生 测 评 项 目 (PISA) (OECD, 
2013) 推 出 了 模拟 生活 情境 的 问题 解决 测验 , 通过 
真实 且 具 有 互动 性 的 任务 , 记录 学 生 在 整个 问题 解 
决 过 程 中 行为 的 动态 变化 过 程 ， 这 为 问题 解决 能 
的 测量 提供 了 一 种 全 新 的 方式 。 这 些 测验 不 仪 记录 
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了 学 生 问 题解 决 的 结果 ,还 可 以 将 学 后 在 问题 解决 
过 程 中 的 操作 步骤 实时 记录 在 日 志文 件 中 ， 即 过 程 
数据 (process data)。 相 较 于 传统 的 结果 数据 ， 基 于 
过 程 数 据 的 挖掘 分 析 ， 可 以 为 推断 学 生 的 潜在 问题 
解决 能 力 提供 更 为 丰 宣 的 信息 。 

目前 ， 针 对 计算 机 化 问题 解决 任务 所 产生 的 过 
程 数 据 的 分 析 方 法 研究 ,根据 研究 目的 主要 可 分 为 
特征 提取 与 能 力 评估 建 模 两 类 (Han et aL, 2022; 
Xiao & Liu, 2023; HEMT 等 , 2022)。 其 中 ,特征 提 
取 可 分 为 理论 驱动 和 数据 驱动 两 类 ,理论 驱动 的 特 
征 提 取 方 法 一 般 采 用 专家 定义 的 行为 指标 来 对 学 
生 的 问题 解决 过 程 进行 评分 (Harding et al., 2017; 
Rosen, 2017; Yuan et al., 2019)， 这 种 方法 依赖 于 专 
家 的 知识 经 验 , 属于 自 上 而 下 的 特征 提取 方法 。 理 
论 驱动 方法 标定 的 行为 指标 不 仅 能 够 用 作对 学 生 
的 评分 依据 ,还 可 以 基于 一 定 的 测量 模型 进一步 建 
模 分 析 (Liu et al., 2018; Zhan & Qiao, 2022; Zhang 
et al., 2022), 但 该 方法 往往 要 针对 不 同 的 任务 情境 
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设 定 不 同 的 特征 提取 规则 ,使 得 应 用 成 本 较 高 。 数 
据 驱 动 的 方法 指 的 是 应 用 数据 挖 气 、 机 器 学 习 等 算 
法 从 过 程 数据 中 提取 关键 信息 ， 常 使 用 的 方法 包括 
自然 语言 处 理 (Hao et al., 2015; He & von Davier, 
2016; He et al., 2021; Zhan et al., 201$)、 降 维 算法 
(Tang et al., 2020, Tang et al., 2021) 和 网 络 分 析 方 法 
(Vista et al., 2017; Zhu et al., 2016) 等 。 

男 外 ,根据 模型 对 行动 序列 顺序 关系 的 利用 与 
否 以 及 能 否 获 得 连续 稳定 的 能 力 估 计 值 ， 能 力 评估 
建 模 可 进一步 分 为 传统 心理 计量 模型 的 迁移 应 用 、 
BA PL ot EER RIE ZA HN E, 
2022)。 传 统 心理 计量 模型 的 迁移 应 用 主要 是 先 利 
用 特征 提取 方法 提取 完成 任务 的 关键 指标 ,然后 参 
照 这 些 关 键 指标 对 被 试 呈现 的 具体 操作 或 行动 序 
列 (action sequence) 进行 编码 (如 , 若 具 体操 作 中 包 
含 关键 指标 则 被 编码 为 1, 否则 为 0)， 最 后 基于 题 
日 作答 理论 (item response theory，IRT) 模 型 或 认 知 
诊断 模型 对 编码 数据 进行 分 析 ， 并 估计 被 试 的 问题 
解决 能 力 (Han & Wilson, 2022; Liu et al., 2018; 
Wilson et al., 2017; Yuan et al., 2019; Zhan & Qiao, 
2022; Zhang et al., 2022; 李 美 娟 等 , 2020)。 然 而 ， 
这 种 方法 会 部 分 或 完全 忽视 具体 操作 中 的 顺序 信 
息 。 与 之 相对 , 已 有 研究 直接 对 行动 序列 进行 随机 
过 程 建 模 ， 如 动态 贝 叶 斯 网 络 (Levy，2019) 和 隐 马 
和 尔 可 夫 模 型 (Arieli-Attali et al., 2019; Bergner et al., 
2017; Xiao et al., 2021)。 这 种 方法 虽然 考虑 到 了 行 
动 序列 中 的 顺序 信息 , 但 估计 得 到 的 潜 变 量 通 常 是 
是 离散 的 属性 或 知识 掌握 状态 ,无 法 了 解 被 试 稳定 
且 连 续 的 问题 解决 能 力 ( 韩 雨 婷 等 , 2022)。 另 外 ， 
还 有 研究 提出 了 结合 随机 过 程 思想 的 心理 计量 建 
模 方 法 (Chen, 2020; Han et al., 2022; Lamar, 2018; 
Shu et al., 2017; Xiao & Liu, 2023). 通常 ,这 类 方法 
假设 在 给 定 潜 在 问题 解决 能 力 的 前 提 下 ,被 试 的 不 
同 状态 转换 或 操作 转移 之 间 满 足 条 件 独 立 性 假设 ; 
比如 ,将 问题 状态 转换 序列 看 作 具 有 一 阶 马 尔 可 夫 
特性 的 离散 随机 过 程 (Han et al., 2022; Xiao & Liu, 
2023)， 从 而 在 保留 序列 本 里 顺序 信息 的 同时 推断 


!' 文中 ，“ 行 动 序列 ”是 指 被 试 为 完成 任务 而 呈现 出 的 一 系列 行动 
或 状态 转换 (state transition)， 其 中 “状态 转换 ”在 本 文中 与 “行动 ” 
交替 使 用 , 均 指 的 是 两 个 相 邻 问题 状态 之 间 的 转换 。 例 如 , A 一 B 或 
AB 表示 从 当前 阶段 的 问题 状态 A 到 下 一 阶段 的 问题 状态 B 的 状态 
转换 ， 进 而 “A 一 B 一 C" 表 示 一 个 包括 两 个 行动 或 状态 转换 的 行动 
序列 (AB 和 BC )。 同 时 ,本 文中 我 们 根据 语言 场景 需求 交替 使 用 
“行动 序列 ”和 “状态 转移 序列 ”两 个 含义 相同 的 名 词 。 
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出 连续 的 潜在 能 力 估计 值 。 

针对 已 有 方法 的 局 限 性 ，Han 等 人 (2022) 将 动 
态 贝 叶 斯 网 络 与 称 名 作答 模型 (nominal response 
model, NRM) (Bock，1972) 相 结合 ,提出 了 序列 作 
答 模 型 (sequential response model, SRM)» SRM 假设 
被 试 的 问题 解决 能 力 和 某 状态 转移 的 特征 共同 决 
定 了 被 试 呈现 该 状态 转移 的 概率 。 相 比 于 已 有 方法 ， 
SRM 不 仅 考 虑 了 行动 序列 的 顺序 信息 ,考虑 了 任 
务 中 不 同 状态 转移 的 独特 性 ,还 可 以 提供 问题 解决 
能 力 的 连续 估计 值 ， 可 用 于 精细 化 了 解 不 同 被 试问 
题解 决 能 力 之 间 的 个 体 差 异 。 与 NRM 类 似 , SRM 
假设 被 试 在 每 个 问题 状态 下 的 所 有 转移 可 选项 ( 即 
行动 可 选项 ) 都 会 提供 测量 信息 ,进而 为 任务 中 每 
一 个 可 能 存在 的 状态 转移 都 赋予 不 同 的 参数 (如 ， 
转移 倾向 性 参数 和 转移 区 分 度 参 数 )。 本 质 上 讲 ， 
SRM 是 对 状态 转移 的 多 分 类 (或 多 元 无 序 ) 建 模 ， 即 
假设 下 一 个 阶段 中 的 所 有 转移 可 选项 之 间 没 有 数 
量 顺序 。 然 而 ,在 实际 问题 解决 任务 中 , 行动 或 状 
态 转 移 是 有 正 误 之 分 的 : 可 将 有 助 于 成 功 解 决 任务 
的 状态 转移 界定 为 正确 状态 转移 ， 而 将 最 终 可 能 会 
导致 任务 失败 的 状态 转移 界定 为 错误 状态 转移 。 
此 ， 被 试 在 每 个 问题 状态 下 的 所 有 转移 可 选项 是 有 
正 误 之 分 的 , 并非 完全 是 没有 数量 顺序 的 等 价 关 系 。 

理论 上 , 对 于 有 正 误 之 分 的 数据 ， 二 分 类 建 模 
更 为 适宜 。 与 二 分 类 建 模 相 比 ， 多 分 类 建 模 (Han 
et al., 2022; Xiao & Liu, 2023) 的 相对 优势 是 可 以 将 
更 丰富 的 测量 信息 纳入 到 数据 分 析 中 , 但 这 势必 导 
致 模型 的 复杂 性 相对 更 高 ; 更 高 的 模型 复杂 性 通常 
意味 着 更 多 的 待 估计 参数 种 类 和 数量 , 更 高 的 参数 
估计 计算 负担 ,更 低 的 参数 估计 结果 可 解释 性 (Ma 
et al., 2016)。 基 于 模型 比较 与 选择 的 简约 原则 (Beck， 
1943)， 本 研究 拟 对 包含 正 误 信息 的 行动 序列 进行 
二 分 类 建 模 ， 提 出 单 参 数 和 两 参数 行动 序列 模型 
(one- and two-parameter action sequence model, 
1P- /2P-ASM)， 以 期 降低 行动 序列 分 析 模 型 的 复 
杂 性 并 增加 计算 效率 ; 同时 ， 相 对 简约 的 模型 也 有 
助 于 增加 模型 参数 估计 结果 的 可 解释 性 ,进而 增加 
行动 序列 模型 的 实践 易 用 性 。 

Hc, 阐述 行动 序列 建 模 基础 ; 其 次 , 介绍 本 
文 两 个 新 模型 : 1 P-ASM 和 2P-ASM; 然后 ， 基 于 一 
则 实证 研究 数据 对 比 两 个 新 模型 和 SRM. 的 参数 佑 
计 结 果 ， 以 展现 新 模型 的 实践 可 应 用 性 及 其 与 
SRM 的 参数 估计 结果 一 致 性 程度 ; 再 然后 ,通过 模 
拟人 研究 探究 两 个 新 模型 在 不 同 模 拟 测验 条 件 的 心 
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理 计 量 学 性 能 ; 最 后 ， 对 人 研究 结果 进行 总 结 并 探讨 


研究 局 限 及 未 来 研究 方 回 。 
2 背景 知识 
2.4 行动 序列 建 模 基础 

本 研究 聚焦 于 任务 目标 明确 且 已 知 信息 完备 
的 结构 良好 (well-defined) 任 务 ; 这 类 任务 常 以 有 限 
状态 自动 机 (finite state automata) 为 原型 构建 。 这 类 
任务 通常 拥有 有 限 的 问题 状态 ,， 有限 的 用 户 输入 信 
号 (即行 动 或 操作 ), 并 且 通 过 用 户 的 操作 可 以 产生 
对 应 的 输出 信号 ， 即 拥有 明确 的 状态 转移 规则 
(Buchner & Funke, 1993). KI 1(a) 呈 现 了 一 个 FSA 
问题 解决 任务 的 例子 , 该 问题 解决 过 程 包含 了 S. 
A、B、C、D 和 王 共 六 种 问题 状态 。 其 中 S 为 问题 
解决 初始 状态 , E 为 问题 解决 的 目标 状态 ， 其 余 均 
为 问题 解决 的 中 间 状 态 。 由 于 该 题目 允许 被 试 在 任 
意 中 间 状态 反悔 回 到 初始 状态 ,所 以 理论 上 会 出 现 
多 种 行动 序列 ， 比 如 ，S 一 A 一 C 一 E 、S 一 B 一 S 一 
A—>C>E, S>B>D>E 等 ,在 众多 行动 序列 中 , 把 
达到 任务 目标 的 最 短 行动 序列 界定 为 最 优 状态 转 
移 序列 或 最 优 行动 序列 ; 如 最 优 状态 转移 序列 
S 一 A 一 C 一 E 包含 S>A, A>C 和 COE 三 个 状态 
FERS. Kr, 红色 实 线 箭头 表示 正确 状态 转移 ， 即 
有 助 于 正确 解决 问题 的 状态 转移 ; 而 黑色 虚线 箭头 
为 错误 状态 转移 ， 即 最 终 可 能 导致 远离 任务 目标 的 
状态 转移 。 

实际 上 , 我 们 可 以 将 被 试 在 每 个 问题 状态 下 的 
行动 转移 视 为 被 试 在 作答 一 道 “ 选 择 题 "。 图 1(b) 是 
与 图 1(a) 相 对 应 的 问题 解决 流程 图 。 当 被 试 处 于 阶 

阶段 1 > 阶段 2-> 阶段 3 闻 阶段 4 … 


(a) 各 问题 状态 转移 关系 图 


图 1 问题 解决 任务 示意 图 
TE :红色 实 线 箭头 表示 正确 状态 转移 ， 黑 色 虚 线 箭 头 表 示 错 误 状 态 
转移 ; S 一 A 一 C 一 E 为 最 优 行动 序列 ， 其 中 包含 S 一 A、A 一 C 和 
CoE 三 个 状态 转移 。 省 略 号 表示 问题 解决 流程 的 重复 出 现 。 


(b) 问题 解决 流程 图 
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Be 1 中 问题 状态 S 时 , 他 /她 需要 在 阶段 2 中 的 两 个 
问题 状态 A 和 B 之 间 做 出 选择 ; 同 理 ， 当 被 试 处 于 
阶段 2 中 间 题 状态 A 时, 他 /她 需要 在 阶段 3 中 三 个 
问题 状态 C, D 和 S 之 间 做 出 选择 (S 表示 返回 到 初 
始 状 态 )。 此 时 , 我 们 就 可 将 适用 于 题目 层面 作答 精 
度数 据 分 析 的 传统 IRT 模型 迁移 应 用 于 此 。 比 如 ， 
Han 等 人 (2022) 就 将 NRM 迁移 应 用 于 此 ,进而 基于 
多 分 类 建 模 提出 了 SRM. 
2.2 SRM 简介 

假设 一 个 问题 解决 任务 包含 了 R 种 离散 的 问 
题 状态 ,问题 状态 的 集合 为 x= 人 oz，……XRT 
Sip €x HN FH n (n = 1, cc, NM 在 阶段 
p (p=1,…,P) 上 所 处 的 问题 状态 ,其 中 N 为 被 试 
样本 量 ，P 为 学 生 n 最 终 呈 现行 动 序列 的 长 度 , 不 
同学 生 的 行动 序列 的 长 度 不 尽 相 同 。 图 2(a) 呈 现 了 
SRM Mie NEA, BI SRM 假设 被 试 的 问题 解决 
能 力 影 响 其 在 相 邻 两 阶段 之 间 的 状态 转移 ; 图 2(b) 
呈现 了 SRM 的 建 模 示意 图 ， 即 SRM 实际 上 是 对 状 
态 转移 进行 建 模 ,假设 被 试 的 问题 解决 能 力 影 响 被 
试 呈 现 特定 状态 转移 的 概率 。SRM 可 表示 为 : 


exp(Ay x, HL On) 
Xk Sap -x,0,)- Lb: MN NNNM 
> exp(A, x, +L, x.) 
X EM 4 


RP, Ys, os, JMKE, MIGR n 在 相 邻 阶段 
间 呈 现 的 状态 转移 x > xx EM, Mx eM 分 
别 表示 当前 阶段 所 处 的 问题 状态 和 下 一 阶段 可 以 
选择 的 问题 状态 ，M, sx = {xn,X2,…,XR} 表示 在 
阶段 p 所 有 可 能 出 现状 态 集合 。0, 为 被 试 n 的 问题 
解决 能 力 ; ALL 为 状态 转移 倾向 参数 ,表示 从 状态 
xj 向 状态 转移 的 倾向 性 ,该 参数 值 越 大 表明 状 
DEH x, > x, 越 易 于 被 呈现 ，1, ,为 状态 转移 区 
分 度 参数 ， 该 参数 值 越 大 表明 状态 转移 x, > x XI 
问题 解决 能 力 的 区 分 度 越 高 。SRM 假设 给 定 被 试 


(a) 逻辑 示意 图 


(b) 建 模 示意 图 

图 2 序列 作答 模型 示意 图 
TE: 6, 为 被 试 n 的 问题 解决 能 力 ;，5, 为 学 生 n 在 阶段 1 所 处 的 
问题 状态 , 依 此 类 推 ，5, — 5,, 为 学 生 n 从 阶段 1 向 阶段 2 转 
移 的 状态 转移 ， 依 此 类 推 。 
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潜在 能 力 后 各 相 邻 阶段 呈现 的 状态 转移 之 间 满 足 
条 件 独 立 ,进而 ,被 试 最 终 时 现 的 状态 转移 向 量 
Y, = (Sm 一 SS > S, 54) 的 联合 概率 为 : 
D, 
P(Y,|0,) = I [PGi as 29) (2) 


pA 

作为 一 种 多 分 类 模型 , SRM 中 的 每 一 个 状态 转 
移 都 包含 2 PER Arn Mle, 。 仍 以 图 1(b) 为 例 ， 
SRM 将 每 一 阶段 的 “选择 题 " 视 为 “ 称 名 作答 题 ", 认 
为 每 一 个 选项 都 会 提供 测量 信息 ， 进 而 包含 了 22 
个 参数 , 分 别 为 11 个 转移 倾向 性 参数 (如 ，46 、 
Asp. Ags» Aac^ 之 对 应 的 还 全 
转移 区 分 度 参 数 。 为 了 使 模型 可 识别 并 降低 待 估计 
参数 数量 ，Han 等 人 (2022) 对 SRM 进行 了 一 定 约 
R: (1) 约束 当前 问题 状态 x, 与 下 一 阶段 中 所 有 可 
选 的 问题 状态 之 间 的 转移 倾向 参数 和 为 0， 即 
> Aug x, 70; (2) 预 先 固定 转移 区 分 度 参 数 : A 
x, EM p4 
x, OX, HIE WRASSE, M y -1; Ex; oxy 
为 错误 状态 转移 , IL. = -1。 


3 ”行动 序列 的 二 分 类 建 模 . 1P-ASM 
和 2P-ASM 


3.1 ”模型 构建 

尽管 SRM 采用 多 分 类 建 模 将 所 有 行动 序列 所 
提供 的 测量 信息 均 纳 入 到 模型 之 中 , 但 它 仍然 通过 
一 个 预先 设 定 的 状态 转移 区 分 度 参 数 区 别 对 待 了 
行动 序列 中 状态 转移 的 正确 与 否 。 针 对 具有 正 误 之 
分 的 状态 转移 ,本 研究 采用 二 分 类 建 模 思路 ,使 用 
针对 二 级 评分 数据 的 IRT 模 型 对 行动 序列 进行 建 模 ， 
如 单 参数 IRT 模 型 /罗氏 模型 (Rasch, 1960) 和 两 参数 
IRT 模型 (Birnbaum, 1968)。 对 此 , 图 3 呈现 了 与 图 
1 对 应 的 问题 解决 任务 的 二 分 编码 示意 图 ， 该 图 中 
我 们 将 正确 状态 转移 编码 为 1, 错误 状态 转移 编码 
为 0. 图 3(b) 中 , 我 们 可 以 将 每 一 阶段 中 的 “选择 题 ” 
视 为 “具有 正确 答案 的 多 项 选择 题 ”*， 此 时 ,就 可 以 
借鉴 传统 二 级 评分 IRT 模型 来 构建 行动 序列 模型 。 

图 4 呈现 了 两 个 ASM 的 建 模 示 意图 ,首先 , 将 
任务 中 所 有 的 状态 转移 进行 二 分 编码 : 将 正确 状态 
转移 编码 为 1, 将 错误 状态 转移 编码 为 0。 此 时 , 被 
试 解决 问题 所 呈现 的 状态 转移 向 量 就 被 编码 为 仅 
包含 0 或 1 元 素 的 二 元 癌 量 ; 比如 图 1 中 最 优 行 动 
序列 SS ACE 所 对 应 的 状态 转移 问 量 (SA, AC, 
CE)' 可 被 转换 为 (1,1,1)'"。 然 后 ， 基 于 二 级 评分 IRT 
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阶段 1 -> 阶段 2 -> 阶段 3 > 阶段 4… 


(a) 各 问题 状态 转移 关系 图 (b) 问题 解决 流程 图 


图 3 问题 解决 任务 二 分 编码 示意 图 
iE: 红色 实 线 箭 头 表 示 正 确 状 态 转移 ， 编 码 为 1; 黑色 虚线 箭头 
表示 错误 状态 转移 ， 编 码 为 0; 省 略 号 表示 问题 解决 流程 的 重 
复出 现 。 


| 0/1 | 0/1 | 0/1 


Sn Sno Sna Sn Sn Sn 
图 4 二 分 类 行动 序列 模型 建 模 示意 图 

TE: 6, 为 被 试 n 的 问题 解决 能 力 ; Sa 为 学 生 严 在 阶段 1 所 处 的 
问题 状态 , 依 此 类 推 ;5,1 一 Sno 为 学 生 款 从 阶段 1 向 阶段 2 转移 
的 状态 转移 ， 依 此 类 推 ; Ys1sz 为 二 分 编码 后 的 状态 转移 ， 
Ysiss2 = 1 表示 被 试 n 呈现 了 正确 状态 转移 ， Y,sis2 -0 表示 被 
试 呈现 了 错误 状态 转移 ; 不 同学 生 的 行动 序列 长 度 不 同 , 方 
框 数 不 同 。 


模型 ， 假 设 被 试 的 问题 解决 能 
状态 转移 的 概率 。 
借鉴 单 参 数 IRT 模型 , IP-ASM 可 被 表示 为 : 
POs, Sp) = NOn) = Pn x, = NG.) = 
eXp( + Co) 
l+exp(B, +0,) 
RP, Yes ys =1 表 示 被 试 n 在 相 邻 阶段 间 呈 现 
了 正确 状态 转移 ; B., 为 行动 容易 度 (action easiness) 
参数 ,表示 状态 x 下 呈现 正确 状态 转移 的 容易 度 ; 
其 他 参数 含义 同上 。 
借鉴 两 参数 IRT 模型 , 2P-ASM 可 被 表示 为 : 
Pgs, 55, = Gn) = PG, = WO.) = 
exp(f,, +74) 
L+exp(B, y, On) 
AHP, Ve 为 行动 区 分 度 (action discrimination ži, 


影响 被 试 呈 现 正确 


(3) 


(4) 
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表示 状态 x, 下 呈现 正确 状态 转移 对 问题 解决 能 
力 的 区 分 程度 ; 其 他 参数 含义 同上 。 

遵循 SRM 局 部 独立 性 假设 ASM 也 假设 给 定 

被 试 潜在 能 力 后 各 相 邻 阶段 呈现 的 状态 转移 之 间 

满足 条 件 独立 ; 进而 , 被 试 最 终 呈 现 的 状态 转移 二 
TEHE Y, 的 联合 概率 为 : 
p,-l 

P8.) = | [P3,6,. 5,16) - (5) 


p=1 

3.2 与 相关 模型 的 对 比 

首先 , 与 SRM 一 致 ， ASM 也 属于 结合 随机 过 
程 思想 的 心理 计量 建 模 方 法 。 两 者 最 大 的 区 别 在 于 
建 模 逻辑 不 同 ,前 者 是 二 元 logistic 模 型 ， 后 者 是 采 
用 除 总 模型 形式 的 多 分 类 logistic 模型 。 建 模 逻 辑 
上 的 差异 不 仅 会 导致 模型 复杂 性 的 差异 ， 也 会 导致 
参数 解释 上 的 差异 。 比 如 ， 如 果 将 SRM 中 的 转移 
倾向 性 参数 视 为 “选项 ”层面 的 参数 , 那 两 个 ASM 
中 的 行动 容易 度 参 数 就 是 “题目 "层面 的 参数 ; 前 者 
刻画 选择 某 选 项 的 倾向 性 ( 即 ， 呈 现 某 状态 转移 的 
倾向 性 )， 而 后 者 刻画 答对 该 题目 的 容易 度 ( 即 ， 呈 
现 正 确 状态 转移 的 容易 度 )。 另 外 ,为 了 减少 参数 佑 
计数 量 ，SRM 中 的 状态 转移 区 分 度 为 预先 固定 的 
无 需 参 数 估 计 ; 而 2P-ASM 中 的 行动 区 分 度 参数 为 
自由 估计 参数 ， 可 以 反映 不 同 问题 状态 (或 “题目 六 
对 被 试问 题解 决 能 力 的 区 分 程度 。 值 得 注意 的 是 ， 
由 于 SRM 中 额外 的 参数 约束 ， 其 待 估计 参数 的 数 
量 并 不 总 是 多 于 1P-ASM 和 2P-ASM。 以 如 图 1(b) 
中 阶段 3 的 问题 状态 C 为 例 ， 当 下 一 阶段 的 转移 可 
选项 只 有 2 个 时 (E 和 S, 由 于 SRM ARS 
ÁcgtÁcg =9. Ice =1 Ñ Ics =-1, 所 以 SRM 中 也 


TICKETS 


A train station has an automated ticketing machine. 
You use the touch screen on the right to buy a 
ticket. You must make three choices. 


o Choose the train network you want (subway 
or country). 


o Choose the type of fare (full or concession). 


o Choose a daily ticket or a ticket for a 
specified number of trips. Daily tickets give 
you unlimited travel on the day of purchase. 
If you buy a ticket with a specified number 
of trips, you can use the trips on different 
days. 


The BUY button appears when you have made 
these three choices. There is a CANCEL button that 
can be used at any time BEFORE you press the 
BUY button. 


m 
e e 
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仅 需 估计 1 个 转移 倾向 性 参数 ,此 时 , 1P-ASM 也 仅 
mihi 1 个 行动 容易 度 参 数 ， 而 2P-ASM 还 需要 额 
外 估计 1 个 行动 区 分 度 参 数 。 当 然 , SRM 的 待 估计 
参数 数量 会 随 着 下 一 阶段 的 转移 可 选项 的 增加 而 
增加 ， 而 ASM 则 不 会 -限于 篇 幅 原 因 , ASM 与 其 他 
模型 之 间 的 对 比 见 网 络 版 附录 1。 
3.3” 贝 叶 斯 参数 估计 

与 SRM 一样， 两 个 ASM 也 可 使 用 全 贝 叶 斯 马 
尔 可 夫 链 蒙特 卡 洛 (MCMC) 算 法 进行 参数 估计 。 详 
见 网 络 版 附录 7。 
4 实证 数据 分 析 
4.1 任务 描述 

与 Han 等 人 (2022) 研 究 保持 一 致 ， 本 人 研究 也 选 
用 PISA 2012 计算 机 化 问题 解决 “Tickets” 任 务 
(CP038Q02) 的 行动 序列 数据 进行 分 析 。 该 任务 要 求 
被 试 操作 一 台 虚 拟 售票 机 ， 购 买 一 张 可 以 乘坐 2 次 
的 全 价 郊区 火车 票 。 图 5 呈现 了 该 任务 的 初始 界面 ， 
问题 解决 过 程 中 各 阶段 的 截图 见 网 络 版 附录 2。 为 
解决 问题 ,被 试 首先 需要 在 交通 方式 上 选择 “城市 
地 铁 ? 或 “郊区 火车 ”。 其 次 ,根据 所 选 的 交通 方式 ， 
被 试 需 要 在 “全 价 票 "和 “打折 票 ”之 间 做 选择 。 然 后 ， 
根据 所 选票 价 类 型 ,再 选择 购买 “ 包 日 票 *" 或 “次 
Suv: 如 果 选 择 “ 次 票 ” 则 还 要 选择 购买 的 乘 车 次 数 
(1 RWS 次 ”)。 最 后 做 出 “购买 ”决定 即 可 完成 该 
任务 。 被 试 可 以 在 任意 操作 界面 通过 点 击 “ 取 消 ” 
来 返回 到 任务 的 初始 界面 重新 进行 选择 。 为 了 解 
决 该 任务 , 不 同 被 试 最 终 呈 现 的 行动 序列 的 长 度 
不 尽 相 同 。 


Select train network 


CITY SUBWAY | COUNTRY TRAINS | 


CANCEL | 


ND. 


aa 7 


ZEDTRAINS 


RSs 


图 $ PISA 2012 购 票 任务 初始 界面 
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pm 2 次 


错误 的 乘 车 次 数 (B) 


lm ems m ome meme me Re mm mom mx um am mei Gu Rm Em EN am am e Gee Ce iM Qe Res mE qu M RS d Me S Qs mm Gu ME aO ms 


和 正确 的 车 票 类 型 (C) |、 
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取消 


— 城市 地 铁 


~ HH 
hie EE EXE 
pe ! 优惠 标 
错误 的 折扣 类 型 (G) 
E 
uc E 
| 错误 的 车 票 类 型 (了 


! 1/2131415 次 
Y 


ra 错误 的 乘 车 次 数 (0) 


Al6 PISA 2012 购 票 任务 结构 图 


图 6 呈现 的 是 该 任务 拆 解 后 的 问题 结构 ， 共 包 
含 11 个 问题 状态 ， 即 x= {S, A, B,C, D, E, F, G, H, I, J}; 
其 中 s 为 起 始 问题 状态 , J 为 终止 问题 状态 ， 其 余 均 
为 中 间 问 题 状 态 。 在 两 个 相 邻 问题 状态 间 ， 实 线 表 
示 正 确 状 态 转移 (如 ，SA)， 虚 线 表示 错误 状态 转移 
(如 , SF)。 该 任务 的 最 优 行动 序列 为 “开始 (S) 一 正确 
的 交通 类 型 (A) 一 正确 的 折扣 类 型 (B) 一 正确 的 车 票 
类 型 (C) 一 正确 的 乘 车 次 数 (D) 一 购买 (人 站”， 相 应 的 
点 击 操作 是 “乡村 火车 ”一 “全 价 票 ” 一 “次 票 ” 一 “2 
次 ”一 “购买 ”。 

表 1 从 “选择 题 ” 视 角 进 一 步 整理 了 图 6 中 的 操 
作 过 程 。 可 将 当前 阶段 所 处 的 问题 状态 视 为 一 道 被 
试 需 要 作答 的 “选择 题 ” 将 下 一 阶段 的 可 选 问题 状 
态 视 为 “选项 ”。 比如, 在 初始 阶段 被 试 需要 在 “选择 
DS 的 两 个 “选项 ”A 和 了 之 间 进 行 选 择 ; 其 中 A 为 
正确 “选项 ”, F 为 错误 “选项 *”。 针 对 这 些 “ 选 择 题 ”， 
SRM 将 它们 视 为 称 名 作答 题 ASM 将 它们 视 为 二 
级 评分 选择 题 。 比 如 ， 某 学 生 的 行动 序列 为 
SABCDEDJ, W| SRM 分 析 的 状态 转移 回 量 为 (SA， 
AB, BC, CD, DE, ED, DJ)’, 而 ASM 分 析 的 状态 转 
移 二 分 向 量 为 (1, 1, 1, 1, 0, 1, 1)’. 


表 1 PISA 2012 购 票 任 务 所 类 比 的 “选择 题 ” 
当前 问题 状态 下 一 阶段 可 选 问 题 状态 (转移 选项 ) 


S A (1) F (0) 

A B (1) G (0) S (0) 

B C (1) H (0) S (0) 

C D (1) E (0) S (0) J (0) 
D J (1) E (0) S (0) 

E D (1) J (0) S (0) 

F S (1) G (0) 

G S (1) H (0) 

H S (1) I (0) J (0) 

I S (1) J (0) 


TE: 括号 中 的 1 代表 正确 * 选 项"( 即 正确 状态 转移 ), 0 代表 错误 
“选项 ”( 即 错误 状态 转移 )。 


42 ”数据 整理 与 分 析 

原始 数据 来 源 于 PISA ERU PARS 在 进行 具体 
的 数据 分 析 之 前 ， 先 根据 图 6 中 定义 的 任务 结构 对 
原始 数据 进行 重新 编码 ， 并 对 数据 进行 清理 : (1) JI 
去 提前 终止 作答 的 行动 序列 ， 即 没有 点 击 “ 购 买 ” 的 
行动 序列 ; (2) 删除 包含 了 不 可 能 的 状态 转移 的 行 


? https://www.oecd.org/pisa/pisaproducts/database-cbapisa2012.htm 
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动 序列 (如 网 络 版 附录 3 表 A2) 最 终 ， 从 记录 行动 
的 日 志文 件 中 提取 了 28,851 名 被 试 的 行动 序列 ， 其 
中 行动 序列 的 最 短 长 度 为 5， 最 长 长 度 为 110, 平均 
长 度 为 6.992。 原 始 数据 当中 包含 了 1,395 种 行动 序 
列 ， 其 中 有 569 种 行动 序列 完成 了 任务 目标 (涉及 
15,408 名 被 试 :有 10,610 名 被 试 按照 最 优 行动 序列 
完成 了 任务 目标 ， 另 外 4,798 名 学 生 在 正确 解决 问 
题 过 程 中 有 错误 修正 过 程 )。 最 后 ， 限 于 算 力 且 为 增 
加 研究 效率 , 我们 采用 简单 随机 抽样 ， 从 28,851 名 
被 试 中 随机 选取 了 2,000 名 学 生 的 行动 序列 用 于 本 
研究 的 实证 分 析 ( 行 动 序列 的 最 短 长 度 为 5, 最 长 长 
度 为 46, 平均 长 度 为 7.03; 包含 了 1395 种 行动 序 
列 ， 其 中 有 569 种 行动 序列 完成 任务 目标 (涉及 
1068 名 学 生 , 有 737 人 按照 最 优 行 动 序列 完成 了 任 
务 目 标 )。 

分 别 使 用 1P-ASM .2P-ASM fill SRM 分析 数 据 。 
参数 估计 时 , 选用 2 条 马尔 可 夫 链 ,每 条 链 长 5,000 
次 ， 预 热 (burn-in)3,000 次 。 使 用 PSRF 值 (PSRE; 
Gelman & Rubin, 1992) 来 确定 MCMC 算法 得 到 的 
参数 估计 值 是 否 达 到 收敛 ; 当 PSRF < 1.1 Bf, 表明 
Zw ipe. WE), 采用 Watanabe-Akaike 信息 
准则 (WAIC; Watanabe，2010) 和 留 一 法 交 又 验证 
(LOO, Vehtari et al.，2017) 两 个 完全 贝 叶 斯 的 相对 
拟 合 指标 来 衡量 模型 对 数据 的 拟 合 情况 ， 为 模型 选 
择 提 供 证 据 ; 两 个 指标 值 越 小 ， 表明 模型 对 数据 的 
拟 合 越 好 。 值得 注意 的 是 ， 由 于 SRM 和 ASM 分 析 
的 数据 并 不 相同 (前 者 分 析 的 是 每 位 学 生 的 状态 转 
Ten S, 后 者 分 析 的 是 每 位 学 生 的 状态 转移 问 量 的 
二 分 化 向 量 )， 所 以 两 者 的 相对 拟 合 值 无 法 比较 。 因 
此 ,我 们 仅 能 通过 相对 拟 合 指标 判断 两 个 ASM 之 
间 的 相对 拟 合 优 劣 ,无 法 用 于 判断 ASM Fl SRM 的 
相对 拟 合 优 劣 。 对 此 , 本 研究 将 通过 计算 ASM 和 
SRM 参数 估计 结果 的 一 致 性 来 体现 二 分 类 建 模 具 
有 与 多 分 类 建 模 相 接近 的 表现 。 另 外 , 使 用 后 验 预 
测 检 验 (PPC; Gelman et al.，1996) 评 佑 模型 对 数据 
的 绝对 拟 合 ; 如 果 模 型 拟 合 数据 ， 则 其 后 验 预 测 概 
率 (ppp) 接 近 0.5, RZ, 如果 模型 不 拟 合 数据 ， 则 
其 ppp 值 <0.025 或 > 0.975。 本 文中 PPC 所 使 用 
的 统计 量 见 网 络 版 附录 4 表 A3。 

4.3 结果 

所 有 模型 中 所 有 参数 的 PSRF 值 均 小 于 1.05, 
表明 在 我 们 的 设 定 下 所 有 参数 估计 达到 收敛 标准 。 
此 外 ,网络 版 附录 5 中 提供 了 模型 参数 的 抽样 轨迹 
图 。 表 2 呈现 了 三 个 模型 对 数据 的 拟 合 情况 和 计算 
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耗 时 。 首 先 ,三 个 模型 的 ppp 值 均 接 近 0.5， 表 明 三 
个 模型 均 拟 合 该 数据 。 其 次 ,两 个 相对 拟 合 指标 表 
HH 2P-ASM 对 数据 的 拟 合 优 于 1P-ASM, BRAS 
虑 状态 转移 的 区 分 度 能 更 好 地 反映 该 数据 的 特征 ， 
即 不 同 状态 转移 对 问题 解决 能 力 的 区 分 能 力 是 不 
同 的 。 如 上 文 所 述 ， ASM 和 SRM 的 相对 拟 合 结果 
不 具有 可 比 性 。 最 后 ,参数 估计 耗 时 可 以 综合 反映 
模型 的 复杂 性 程度 ,结果 发 现 SRM 的 耗 时 最 长 ， 
2P-ASM 次 之 , 1P-ASM 的 耗 时 最 短 ; 这 表明 二 分 类 
模型 的 确 比 多 分 类 模型 简约 。 下文 主要 人 研究 结果 围 
绕 两 个 ASM 阐述 ,并 呈现 ASM 和 SRM 对 被 试问 
题解 决 能 力 估计 的 一 致 性 。 


表 2 实证 研究 中 三 个 模型 对 数据 的 拟 合 情 况 和 计算 耗 时 


模型 LOO WAIC ppp ”计算 时 间 ( 秒 ) 
1P-ASM 11018.208 11007.133 0.511 647.5 
2P-ASM 10363.785 10275.475 0.518 958.5 


SRM 16804.501  16803.925 0.498 1958.6 


ik: 1P-ASM = 单 参数 行动 序列 模型 ; 2P-ASM = 两 参数 行动 序 


列 模型 ; SRM = 序列 作答 模型 ; LOO = 留 一 法 交叉 验证 ; WAIC 
= Watanabe-Akaike 信息 准则 ; ppp = 后 验 预 测 概率 。 


表 3 中 呈现 了 两 个 ASM 的 题目 参数 估计 结果 
(后 验 均 值 、 后 验 标准 差 和 95% 最 高 概率 密度 [ 贝 叶 
斯 可 信 区 间 ]), 首先 ， 对 于 行动 容易 度 参数 而 言 ， 正 
确 问 题解 决 路 径 ( 即 最 优 行动 序列 ) 上 的 问题 状态 
(S. A. B, C 和 D) 的 容易 度 参数 的 后 验 均 值 均 大 
于 0 (2P-ASM 中 问题 状态 D 的 后 验 均 值 与 零 无 显 
著 差 异 )， 表明 当 被 试 处 于 正确 路 径 上 的 问题 状态 
时 ,其 更 容易 继续 呈现 正确 状态 转移 ; 与 之 相对 ， 
错误 问题 解决 路 径 ( 即 非 最 优 行动 序列 ) 上 的 问题 状 
态 (F、G、H 和 了 的 容易 度 参数 的 后 验 均值 均 小 于 0 
(1P-ASM 中 问题 状态 工 的 后 验 均值 与 零 无 显著 差异 ; 
2P-ASM 中 问题 状态 也 和 I 的 后 验 均值 与 零 无 显著 
差异 )， 表明 当 被 试 已 经 处 于 错误 路 径 上 的 问题 状 
态 时 ,其 更 难以 纠正 错误 转向 正确 的 问题 状态 ( 即 
更 易于 继续 维持 在 错误 路 径 上 )。 值得 注意 的 是 ， 问 
题 状 态 E 和 1 是 错误 路 径 上 的 问题 状态 ,其 含义 均 
为 “选择 错误 的 乘 车 次 数 ”"; 相 较 于 其 他 错误 路 径 上 
的 问题 状态 ,E 和 I 的 容易 度 估 计 值 更 高 ,表明 当 被 
试 处 于 这 两 个 错误 状态 时 ， 更 有 可 能 在 下 一 步 选择 
时 纠正 自己 的 错误 ( 即 选择 S 返回 初始 状态 重新 作 
答 )。 其 次 ， 对 于 行动 区 分 度 参数 而 言 ,不 同 问题 状 


3 SRM 的 题目 参数 估计 结果 见于 网 络 版 附录 8。 
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态 的 行动 区 分 度 有 一 定 差异 性 。 其 中 , 问题 状态 C 
和 了 的 行动 区 分 度 后 验 均值 相对 较 高 ,表明 不 同 问 
题解 决 能 力 的 学 生 在 这 两 个 问题 状态 下 呈现 正确 
状态 转移 的 概率 差异 相对 较 大 。 也 就 是 说 , 已 处 于 
正确 问题 解决 路 径 上 的 学 生 是 否 能 够 选择 正确 的 
乘 车 次 数 ,以 及 已 经 处 于 错误 问题 解决 路 径 上 的 学 
生 是 否 能 够 通过 “取消 ?来 纠正 自己 的 错误 ,这 两 个 


学 dg 第 55 15 
操作 对 于 学 生 的 能 力 的 区 分 力 是 相对 最 强 的 。 总 之 ， 
根据 行动 参数 估计 值 可 发 现 ， 当 被 试 已 经 处 于 正确 
问题 解决 路 径 ， 则 其 更 易于 保持 在 正确 问题 解决 路 
径 上 ; 而 当 被 试 已 经 处 于 错误 问题 解决 路 径 ， 则 其 
更 易于 继续 错 下 去 ， 直 到 末尾 选择 乘 车 次 数 界面 时 
才 有 一 个 纠正 错误 的 关键 期 。 

图 7 呈现 了 三 个 模型 的 问题 解决 能 力 估计 值 


RI 实证 研究 中 行动 序列 模型 参数 估计 结果 


"m 1P-ASM 2P-ASM 
Eg 容易 度 容易 度 区 分 度 
后 验 均值 后 验 标准 差 95% HPD 后 验 均值 后 验 标准 差 “95% HPD 后 验 均 值 后 验 标准 差 95% HPD 
S 0.911 0.046 (0.822, 1.001) 0.969 0.057 (0.860, 1.084) 1.343 0.116 (1.111, 1.570) 
A 1.553 0.066 (1.425, 1.682) 1.547 0.077 (1.401, 1.701) 1.457 0.212 (1.043, 1.870) 
B 1.432 0.073 (1.290, 1.577) 1.354 0.082 (1.198, 1.521) 1.797 0.398 (0.958, 2.566) 
C 1.436 0.080 (1.279, 1.599) 1.207 0.148 (0.940, 1.526) 3.015 0.885 (1.104, 4.759) 
E 2.008 0.107 (1.801, 2.215) 1.734 0.159 (1.456, 2.099) 1.615 0.495 (0.463, 2.576) 
D 0.361 0.176 (0.015, 0.702) 0.472 0.283 (-0.031, 1.064) | 1.472 0.952 (0.225, 3.792) 
F -1.705 0.107 (1.918, -1.492) —1.590 0.123 (=1.829, -1.348) 1.438 0.250 (0.982, 1.974) 
G —1.888 0.111 (-2.105, -1.677) | —1.747 0.147 . (-2.050,—1.480) 2.115 0.354 (1.495, 2.875) 
H —0.749 0.075 — (-0.898,—0.599) —0.292 0.172 (-0.636, 0.037) | 2.229 0.426 — (1.400, 3.088) 
I —0.368 0.157 (-0.686, 0.062) ^ 0.760 0.470 (70.101, 1.753) — 3.127 0.953 . (1.525, 5.179) 


iE: IP-ASM = 单 参 数 行动 序列 模型 ; 2P-ASM = 两 参数 行动 序列 模型 ; SRM = 序列 作答 模型 ; 95% HPD = 95% 最 高 概率 密度 ( 贝 叶 
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图 7 实证 数据 中 三 个 模型 的 问题 解决 能 力 参 数 后 验 均 值 对 比 散 点 图 及 概率 密度 图 
iE: 1P-ASM = 单 参 数 行动 序列 模型 ; 2P-ASM = 两 参数 行动 序列 模型 ; SRM = 序列 作答 模型 ;r = 皮尔 逊 积 差 相 关 。 
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(后 验 均 值 ) 的 对 比 散 点 图 及 概率 密度 图 。 首 先 , 散 
点 图 结果 呈现 出 三 个 模型 的 问题 解决 能 力 估 计 值 
具有 较 高 的 一 致 性 (三 者 之 间 的 相关 系数 均 在 0.99 
以 上 ), 表明 它们 测量 的 是 同一 潜在 特质 且 二 分 类 
建 模 与 多 分 类 建 模 一 样 能 够 通过 分 析 行 动 序列 数 
据 测 量 被 试 的 问题 解决 能 力 并 反映 个 体 之 间 的 差 
异性 。 其 次 , 对 比 三 模型 的 概率 密度 图 ， 可 发 现 三 
个 模型 在 高 能 力 区 间 和 低能 力 区 间 的 概率 密度 分 
布 基本 一 致 ， 仅 在 中 能 力 区 间 的 分 布 略 有 差异 ( 主 
要 是 SRM)。 一 个 可 能 的 原因 是 SRM 更 充分 地 利用 
了 不 同 状态 转移 所 提供 的 测量 信息 : 它 不 仅 利 用 了 
正确 状态 转移 所 包含 的 测量 信息 ， 也 利用 了 不 同 错 
误 状 态 转移 中 的 测量 信息 。 比 如 ， 当 多 名 被 试 同时 
处 于 问题 状态 A 时 ， 相 比 于 选择 错误 “选项 ”G 的 被 
试 而 言 , 选择 错误 “选项 ”S 的 被 试 的 问题 解决 能 
似乎 要 更 高 一 些 ; 此 时 ，SRM 是 可 以 区 分 呈现 AG 
的 被 坛 和 呈现 AS 的 被 试 之 间 的 区 别 的 ， 而 ASM 则 
将 他 们 均 视 为 同一 类 做 出 错误 选择 的 人 。 

从 分 析 数 据 中 挑选 取出 现 频率 大 于 20 次 的 行 
动 序列 作为 典型 行动 序列 (涵盖 了 80.1% 的 被 试 )。 
表 4 星 现 了 典型 行动 序列 在 三 个 模型 中 的 问题 解决 
能 力 估计 值 的 描述 统计 ( 按 SRM 的 能 力 估计 均值 从 
高 到 低 排 序 )。 首 先 ,三 个 模型 对 呈现 各 典型 行动 序 
列 的 被 试 的 能 力 估计 的 描述 性 统计 具有 一 定 的 一 
SUPE. EE, 呈现 最 优 行动 序列 SABCDJ 的 被 试 的 
能 力 估 计 均 值 相 对 最 高 ， 而 呈现 最 差 行动 序列 
SFGHIJ 的 被 试 的 能 力 估计 均值 相对 最 低 。 其 次 ， 整 
体 而 言 ， 各 典型 行动 序列 中 ， 出 现 正 确 问题 状态 的 
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数量 越 多 且 出 现 错误 问题 状态 的 数量 越 少 则 被 试 
的 能 力 估计 值 的 均值 就 越 高 ,， 反之, 被 试 的 能 力 信 
计 值 的 均值 就 越 低 。 然后 ,对比 ASM 和 SRM 的 结 
果 , 发 现 ASM 中 有 两 个 序列 下 的 被 试 的 能 力 估计 
值 的 均值 排序 与 SRM 中 的 不 同 : SABCEDJ 对 应 的 
能 力 估计 值 的 均值 略 低 于 SFGHSABCDJ 对 应 的 。 
呈现 SABCEDJ 的 被 试 尽管 在 状态 C 上 的 选择 出 现 
了 错误 转移 (CE) 且 马上 进行 了 纠正 (ED)， 而 呈现 
SFGHSABCDJ 的 被 试 在 初始 状态 就 出 现 了 错误 转 
移 ， 直 到 选择 购买 乘 车 次 数 时 才 返 回 初 始 页 面 纠 正 
自己 的 错误 。 ASM 和 SRM 在 这 两 个 序列 上 的 排序 
差异 可 以 从 不 同 的 视角 解释 。 首 先 ， 从 出 现 错误 状 
态 的 次 数 或 问题 解决 效率 (序列 长 度 ) 看 ， 似 乎 呈现 
SABCEDJ 的 被 试 的 能 力 估 计 值 均值 应 该 高 于 呈现 
SFGHSABCDJ 的 被 试 的 ; SRM 的 排序 结果 支持 该 
视角 解释 。 其 次 , 结合 表 3 中 的 行动 容易 度 参数 可 
AX, 问题 状态 C 的 容易 度 较 高 (难度 较 低 )， 而 问 
题 状 态 F、G 和 再 的 容易 度 较 低 (难度 较 高 ); 因此 ， 
从 错误 选择 对 能 力 估 计 带 来 的 负面 影响 或 惩罚 看 ， 
在 状态 C 的 错误 选择 所 吾 来 的 惩罚 高 于 在 状态 上、 
G 和 五 的 钳 误 选择 所 市 来 的 ,进而 导致 SABCEDJ 
的 被 试 的 能 力 估计 值 均 值 低 于 呈现 SFGHSABCDJ 
的 被 试 的 ; ASM 的 排序 结果 支持 该 视角 解释 。 
最 后 ， 鉴 于 相对 拟 合 指标 无 法 对 比 ASM 和 
SRM 对 数据 的 拟 合 优 劣 我们 使 用 三 个 模型 的 问 
题解 决 能 力 估计 值 对 该 任务 的 作答 精度 数据 (根据 
该 任务 的 评分 规则 ,购买 到 正确 的 车 票 得 1 4p, 否 
则 得 0 分 ) 做 logistic 回归 。 按 照 logistic 回归 的 要 


表 4 典型 行动 序列 对 应 的 问题 解决 能 力 估计 值 的 描述 统计 


问题 状态 SRM 

转移 序列 均值 中 位 数 ”标准 差 
SABCDJ 737 0.837 0.837 0.011 
SFSABCDJ 35 0.525 0.525 0.007 
SFGSABCDJ 22 0.345 0.347 0.007 
SABCEDJ 23 0.279 0.279 0.007 
SFGHSABCDJ 52 0.152 0.151 0.006 
SABCJ 47 0.023 0.025 0.007 
SABCEJ 27 —0.250 —0.250 0.005 
SABHJ 117 —0.364 —0.364 0.007 
SAGHJ 65 —0.662 —0.662 0.008 
SAGHIJ 45 —0.806 —0.806 0.008 
SFGHJ 337 —1.099 —1.099 0.011 
SFGHIJ 95 —1.228 —1.227 0.011 


1P-ASM 2P-ASM 
均值 中 位 数 ”标准 差 均值 中 位 数 ”标准 差 
0.821 0.821 0.009 0.666 0.665 0.012 
0.676 0.677 0.007 0.604 0.603 0.010 
0.598 0.598 0.005 0.488 0.487 0.009 
一 0.017 —0.018 0.005 0.257 0.258 0.008 
0.304 0.304 0.004 0.295 0.296 0.009 
—0.238 一 0.237 0.006 —0.035 —0.035 0.011 
—0.404 —0.404 0.005 一 0.338 一 0.338 0.012 
—0.506 —0.506 0.006 一 0.359 一 0.338 0.010 
—0.741 —0.742 0.008 —0.594 —0.594 0.010 
—0.940 一 0.939 0.007 —0.760 —0.760 0.010 
一 1.033 一 1.033 0.008 一 0.809 —0.869 0.011 
一 1.201 一 1.201 0.008 —1.020 一 1.021 0.010 


TE: IP-ASM = 单 参数 行动 序列 模型 ; 2P-ASM = 两 参数 行动 序列 模型 ; SRM = 序列 作答 模型 。 
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求 ， 对 自 变量 即 能 力 佑 计 值 进行 了 标准 化 处 理 。 计 
算得 到 的 SRM, IP-ASM 和 2P-ASM 的 能 力 佑 计 值 
的 标准 化 回归 系数 分 别 是 15.285、14.999 和 15.387 
(回归 系数 均 显 著 p < 0.001), 表明 三 模型 的 能 力 估 
计 值 的 变化 可 以 显著 影响 该 任务 的 成 果 完 成 与 否 ， 
且 影 响 程 度 基 本 一 致 ， 其 中 2P-ASM 的 影响 相对 最 
K, SRM 的 次 之 , 1P-ASM 的 相对 最 小 。 此 外 , SRM, 
1P-ASM 和 2P-ASM 能 力 估计 值 的 回归 方程 得 到 
Bj R^ 分别 为 0.929、0.958 和 0.959， 表 明 模 型 得 到 
能 力 估计 值 能 够 解释 观测 数据 变异 的 比例 很 高 ， 能 
够 准确 预测 学 生 在 任务 上 的 作答 表现 ， 其 中 ， 
2P-ASM 的 变异 解释 率 相对 最 大 ，1P-ASM 的 次 之 ， 
SRM 的 相对 最 小 。 


5 模拟 人 研究 
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通过 一 则 模拟 研究 进一步 探究 两 个 ASM 在 理 
想 测验 情境 下 的 心理 计量 学 表现 。 需 要 强调 的 是 
ASM 本 身 并 无 法 生成 被 试 解决 任务 所 呈现 的 行动 
序列 (只 能 生成 0-1 向量 ); 因此 ,模拟 研究 中 使 用 
SRM 作为 行动 序列 数据 的 生成 模型 。 采 用 实证 研 
究 中 的 问题 解决 任务 结构 (图 6) 来 生成 行动 序列 数 
据 。 模 拟 研 究 包含 两 个 操纵 变量 : 样本 量 ( 含 100、 
200 和 500 人 三 个 水 平 ) 和 行动 序列 长 度 ( 含 短 和 长 
两 个 水 平 ); 参照 Han 等 人 (2022) 和 Fu 等 人 (2022) 
的 做 法 , 在 SRM 中 通过 调整 “取消 ”操作 (如 , AS) 
的 转移 倾向 参数 来 操纵 行动 序列 的 长 度 : 该 参数 取 
值 越 大 行动 序列 长 度 越 长 。 行动 序列 生成 步骤 详 见 
网 络 版 附录 6。 最 终 , 本 研究 中 生成 的 短 行动 序列 
和 长 行动 序列 的 平均 长 度 分 别 约 为 10.5 和 20.2。 此 
外 ,为 减少 随机 误差 影响 ,六 种 模拟 条 件 下 均 按 照 
上 述 数据 生成 步骤 重复 生成 50 组 数据 。 

针对 生成 的 数据 , 使 用 SRM. IP-ASM 和 
2P-ASM 进行 参数 估计 ,参数 估计 过 程 与 实证 人 研究 
中 保持 一 致 ; 同样 使 用 PSRF 作为 参数 估计 收敛 指 
标 。 由 于 SRM 和 两 个 ASM 建 模 逻 辑 不 同 , 它们 除 
了 问题 解决 能 力 参 数 含义 相同 且 可 比 ， 其余 参 数 含 
义 不 同 且 无 法 比较 。 对 此 , 我 们 针对 问题 解决 能 力 的 
估计 结果 从 两 方面 来 评估 模型 的 表现 。 首 先 ， 从 参数 
估计 精度 方面 考虑 , 使 用 Bias 和 均 方 根 误差 (RMSE) 
来 探究 三 个 模型 中 问题 解决 能 力 参 数 的 估计 返 真性 : 


50 50 "T 
> 9. -9, MORAJ 
Bias(0) = += ES ,RMSE(0) = T 式 
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HP. and 6. 分别 表 示 在 第 > 次 重复 中 的 能 力 参 数 
的 “ 真 值 "> 和 参数 估计 值 ; 此 外 ,还 计算 了 “ 真 值 ”和 
估计 值 之 间 的 相关 系数 Cor。 其 次 ， 从 参数 估计 一 
致 性 方面 考虑 ， 使 用 一 致 性 偏差 (CBias) 和 一 致 性 
误差 (CRMSE) 来 探究 两 个 ASM 的 能 力 估计 值 和 数 
据 生 成 模型 SRM 的 能 力 估 计 值 之 间 的 一 致 性 : 


50 50 
> Ans -Oisu jac m Ou) 
CBias(0) = NEC NE ,CRMSE(0) = CENE f 


HK, Ogu 表示 第 > 次 重复 中 SRM 的 能 力 估计 值 ， 
by 表示 第 次 重复 中 ASM 的 能 力 估计 值 ; 此 外 ， 
还 计算 了 两 类 模型 估计 值 之 间 的 相关 系数 Ccor。 
另外 , 计算 了 各 个 条 件 下 50 次 参数 估计 平均 
计算 时 间 (ART) 来 评估 不 同 的 模型 的 参数 估计 效率 
50 
25 


以 反映 模型 的 复杂 性 : ART = ) US T. 


表示 第 > 次 重复 中 的 参数 估计 计算 时 间 。 为 保证 计 
算 时 间 结 果 可 比 ,三 模型 的 所 有 程序 均 在 相同 服务 
器 上 运行 (配置 为 Intel® Xeon® Gold 6266C CPU (à) 
3.00 GHz 和 64 G 内 存 )。 
52 ”结果 

首先 ,在 所 有 条 件 下 ,三 模型 中 所 有 参数 的 
PSRF 均 小 于 1.1， 表 示 所 有 模型 参数 估计 均 收 敛 。 
K 5 呈现 了 不 同 模拟 条 件 下 三 个 模型 的 问题 解决 能 
力 参 数 估计 的 返 真 性 和 计算 耗 时 。 首 先 ， 被 试 样本 
量 对 能 力 参 数 估计 的 返 真 性 的 影响 较 小 ; 序列 平均 
长 度 越 长 ， 能 力 参 数 估计 的 返 真 性 越 高 。 从 另外 的 
角度 来 看 , 序列 的 平均 长 度 反 映 了 题目 样本 量 的 大 
小 ,序列 平均 长 度 越 长 ， 即 题目 的 样本 量 越 大 ， 对 
于 被 试 能 力 值 的 推断 则 越 准 确 。 其 次 , SRM 作为 数 
据 生 成 模型 ， 其 返 真 性 理应 最 好 ，2P-ASM 次 之 ， 
1P-ASM 最 差 , 但 三 者 间 整 体 差异 不 大 ( 绝 大 多 数 条 
件 下 1P-ASM 的 RMSE 比 SRM 的 高 不 到 0.05, Cor 
低 不 到 0.02). 最 后 ,在 所 有 条 件 下 1P-ASM 的 计算 
耗 时 最 短 , 2P-ASM 次 之 , SRM 最 长 ; 该 结果 与 实证 
研究 结果 吻合 , 表明 相 比 于 多 分 类 模型 ， 二 分 类 建 
模 在 保证 其 能 力 参 数 估 计 精 度 仅 有 微弱 下 降 的 同 
时 ， 可 大 幅 减少 参数 估计 耗 时 。 

K 6 呈现 了 不 同 模拟 条 件 下 两 个 ASM 与 SRM 
的 问题 解决 能 力 参 数 估 计 的 一 致 性 。 整 体 看 ， 两 个 
ASM 与 SRM 的 一 致 性 均 较 高 ， 且 2P-ASM 与 SRM 
的 一 致 性 高 于 1 P-ASM 与 SRM 的 一 致 性 .另外 , fH 
得 注意 的 是 ， 当 序列 长 度 增加 后 ，1P-ASM 5j SRM 
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表 5 模拟 研究 中 三 个 模型 的 问题 解决 能 力 参 数 的 估计 


返 真 性 和 计算 耗 时 
样本 量 序列 长 度 ” 模 型” 均 Bias 均 RMSE Cor ART( 秒 ) 
100 短 ”1P-ASM -0.002 0.534 0.854 18.117 
2P-ASM -0.002 0.534 0.852 30.274 


SRM 0.007 0.515 0.863 1029.189 

长 | 1P-ASM -0.011 0.441 0.910 24.393 

2P-ASM -0.011 0.408 0.917 37.100 

SRM —0.026 0.395 0.921 1321.361 

IP-ASM — 0.007 0.523 0.855 41.923 

2P-ASM 0.007 0.518 0.858 66.395 

SRM 0.011 0.507 0.864 527.740 

长 ”1P-ASM 0.010 0.438 0.912 54.448 

2P-ASM 0.010 0.395 0.921 76.707 

SRM 0.002 0.386 0.924 691.308 

IP-ASM -0.004 0.516 0.856 119.439 

2P-ASM —0.004 0.504 0.863 198.838 

SRM —0.001 0.500 0.865 590.051 

长  1P-ASM 0.005 0.444 0.907 160.661 
2P-ASM 0.005 0.394 0.920 236.195 
SRM 0.002 0.391 0.921 801.767 

TE: 1P-ASM = 单 参 数 行动 序列 模型 ; 2P-ASM = 两 参数 行动 序 
列 模 型 ; SRM = 序列 作答 模型 ; 均 Bias = 所 有 被 试 的 估计 偏 
差 的 均值 ; IY RMSE = 所 有 被 试 的 均 方 根 误差 的 均值 ; Cor = 
真 值 与 估计 值 之 间 的 相关 系数 ; ART = 平均 计算 时 间 。 当 样本 
量 为 100 Hf, SRM 模型 的 计算 耗 时 明显 多 于 其 他 较 高 样本 量 条 
件 下 的 计算 耗 时 ; 可 能 是 因为 样本 量 较 少 的 情况 下 ,数据 提供 
的 测量 信息 有 限 , 使 复杂 程度 较 高 的 SRM 的 MCMC 抽样 更 为 
困难 。 


200 短 


500 短 


表 6 模拟 研究 中 两 个 ASM 和 SRM 的 问题 解决 能 力 参 
数 估计 的 一 致 性 
1P-ASM 与 SRM 
vau 序列 
样本 量 长 度 均 均 
CBias CRMSE 


2P-ASM 与 SRM 


均 


: 
OF Cpias CRMSE 


100 Ai -0.009 0.126 0.991 -0.009 0.129 0.989 
长 0.015 0.200 0.986 0.015 0.098 0.995 
200 短 | —0.004 0.126 0.991 —0.004 0.098 0.994 
长 0.008 0.208 0.986 0.008 0.077 0.997 
500 Aj | —0.002 0.126 0.990 -0.002 0.060 0.998 
长 0.003 0.211 0.986 0.003 0.042 0.999 


iE: IP-ASM = 单 参数 行动 序列 模型 ; 2P-ASM = 两 参数 行动 序 
列 模型 ; SRM = 序列 作答 模型 ; 均 Cbias = 所 有 被 试 的 一 致 性 
偏差 的 均值 ; 均 CRMSE = 所 有 被 试 的 一 致 性 误差 的 均值 ; 
Ccor = SRM 估计 值 与 ASM 估计 值 之 间 的 相关 系数 。 


的 一 致 性 略 有 下 降 ,， 而 2P-ASM 与 SRM 的 一 致 性 
略 有 提升 。 可 能 的 原因 是 , IP-ASM 相对 简单 ， 其 约 
束 所 有 问题 状态 具有 相同 的 区 分 度 ， 而 序列 较 短 
(< 题目 ”数量 较 少 ) 时 这 种 约束 带 来 的 负面 影响 比 序 
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列 较 长 时 低 (序列 越 长 ,各 问题 状态 之 间 的 区 分 度 
差异 越 大 ); 而 2P-ASM 相对 复杂 , 需 自 由 估计 所 有 
问题 状态 的 区 分 度 ， 此 时 ， 随 着 序列 长 度 的 增加 ， 
各 问题 状态 的 区 分 度 差异 随 之 增加 ， 更 符合 
2P-ASM 的 假设 。 


6 总 结 与 讨论 


与 传统 作答 精度 数据 相 比 ,诸如 行动 序列 等 过 
程 数据 能 提供 有 关 被 试 如 何 解决 问题 的 更 丰富 信 
息 。 同时 , 行动 序列 数据 的 非 标准 化 格式 ( 即 不 同 被 
试 的 数据 长 度 不 同 ) 也 给 传统 心理 计量 学 模型 的 直 
接应 用 带 来 了 困难 。 针 对 已 有 方法 的 局 限 ，Han 等 
人 (2022) 将 动态 贝 叶 斯 网 络 与 NRM 相 结 合 , 提出 
f SRM, 5 NRM 类 似 ，SRM 采用 多 分 类 logistic 
建 模 ， 进 而 为 任务 中 每 一 个 可 能 存在 的 状态 转移 都 
赋予 不 同 的 参数 ， 导 致 模型 复杂 性 较 高 。 鉴 于 问题 
解决 任务 中 状态 转移 有 正 误 之 分 ,而 非 是 没有 数量 
顺序 的 等 价 关 系 , 本 文 基 于 二 分 类 建 模 提出 了 两 个 
模型 复杂 性 相对 较 低 的 行动 序列 模型 一 一 1P-ASM 
和 2P-ASM, 不同 于 SRM 将 NRM 迁移 应 用 至 行动 
序列 数据 分 析 ，1P-ASM 和 2P-ASM 分 别 将 更 为 简 
单 的 单 参 数 IRT 模型 和 两 参数 RT 模型 迁移 应 用 至 
行动 序列 数据 分 析 。 实 证 研究 结果 发 现 (1) 两 个 
ASM 和 SRM 的 问题 解决 能 力 估计 值 具有 接近 于 1 
的 相关 系数 ， 表 明 它 们 测量 的 是 同一 潜在 特质 ; (2) 两 
个 ASM 的 计算 耗 时 明显 低 于 SRM 的 , 一 定 程度 上 
表明 ASM 的 模型 复杂 性 低 于 SRM 的 ; (3) 参 数 估计 
结果 揭示 了 本 研究 中 任务 的 特征 : 当 被 试 已 经 处 于 
正确 问题 解决 路 径 ， 则 其 更 易于 保持 在 正确 问题 解 
决 路 径 上 ; 反之 ， 当 被 试 已 经 处 于 错误 问题 解决 路 
径 ， 则 其 更 易于 继续 错 下 去 ; (4) 与 1P-ASM 和 SRM 
将 区 分 度 参数 进行 固定 不 同 ,2P-ASM 可 以 提供 在 
当前 所 处 问题 状态 下 呈现 正确 状态 转移 的 区 分 度 
参数 ， 有 助 于 确定 相对 比较 重要 的 问题 状态 (比如 
实证 研究 中 的 问题 状态 C 和 D， 以 便 数据 分 析 者 更 
好 地 了 人 解 任 务 本 身 ,模拟 研究 结果 发 现 (1) 即 便 不 是 
数据 生成 模型 ,两 个 ASM 也 能 提供 较 高 的 参数 估 
计 返 真性 ; (2) 两 个 ASM 的 计算 耗 时 低 于 SRM, È 
其 是 在 小 样本 量 条 件 下 的 相对 优势 更 为 明显 ; (3) 两 
个 ASM 的 问题 解决 能 力 估计 值 与 SRM 的 均 具 有 很 
高 的 一 致 性 , H. 2P-ASM 与 SRM 的 一 致 性 相对 更 
高 ; (4) 被 试 解决 问题 时 最 终 呈 现 的 行动 序列 的 长 短 
是 影响 两 个 ASM 以 及 SRM 参 数 估计 返 直 性 的 主要 
原因 之 一 : 序列 越 长 ,数据 所 含 信 息 越 多 ， 对 问题 
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解决 能 力 的 估计 精度 更 高 。 综 上 所 述 , 本文 基 于 二 
分 类 建 模 提 出 的 两 个 ASM 能 够 实现 对 行动 序列 数 
据 的 有 效 分 析 , 在 减少 模型 复杂 性 的 同时 ， 还 能 够 
提供 与 SRM 几乎 一 致 的 被 试问 题解 决 能 力 估计 
值 。 同 时 , 综合 模拟 人 研究 与 实证 研究 的 结果 ,我 们 
认为 2P-ASM 比 1P-ASM 的 综合 表现 更 优 ; 但 当 样 
本 量 较 小 (如 100 人) 或 任务 简单 (解决 问题 所 需 的 操 
作 较 少 ) 时 ， 则 推荐 使 用 更 简约 的 IP-ASM. 

当然 , 作为 二 分 类 模型 ，ASM 与 SRM 相 比 仍 
有 一 定 的 理论 局 限 。 比 如 , 使 用 ASM 分 析 行 动 序 
列 数据 前 需要 将 行动 序列 进行 二 分 编码 ,将 所 有 错 
误 状 态 转 移 视 为 “等 价 ”， 进而 不 可 避免 地 损失 了 不 
同 错误 状态 转移 所 提供 的 差异 化 信息 。 另 外 , 由 于 
ASM 是 对 二 分 编码 后 的 行动 序列 数据 进行 建 模 的 ， 
导致 我 们 无 法 通过 给 定 模 型 参数 使 其 生成 行动 序 
列 数据 。 

尽管 本 文 提出 两 个 可 有 效 分 析 行 动 序列 数据 
的 模型 , 但 仍 有 一 些 不 足 值得 在 今后 的 研究 中 做 进 
一 步 尝 试 。 比如， 首先, 5 SRM 一 样 , ASM 也 假设 
被 试 的 问题 解决 能 力 是 单 维 的 ; 然而 , 在 一 些 问题 
解决 任务 中 ， 有 可 能 需要 被 试 使 用 多 个 不 同 维度 的 
问题 解决 能 力 。 后续 人 研究 也 可 尝试 进一步 提出 多 维 
行动 序列 模型 (Shu et al., 2017)。 其 次 , 在 过 程 数 据 
H, 不 仪 记录 了 被 试 在 问题 解决 各 阶段 所 处 的 问题 
状态 , 还 记录 了 被 试 在 问题 解决 各 阶段 上 的 时 间 截 
AA; 利用 时 间 戳 信息 可 以 计算 出 被 试 呈 现 各 状态 
转移 所 花费 的 时 间 ， 即 行动 时 间 (action times) (Fu 
et al., 2022), Any, 在 题目 层面 数据 分 析 中 , 已 有 
大 量 关 于 题目 作答 时 间 (item response times) 数 据 分 
析 的 以 及 将 其 与 题目 作答 精度 数据 进行 联合 分 析 
的 研究 (e.g., van der Linden, 2006; 2007; Man et al., 
2022; Peng et al., 2022; Zhan et al., 2018, Zhan et al., 
2022)。 后 续 人 研究 也 可 尝试 将 行动 时 间 数 据 与 行动 
序列 数据 相 结合 ， 进 一 步 挖掘 过 程 数 据 中 所 包含 的 
丰富 信息 (Fu et al., 2022)。 再 有 , 被 试 在 解决 问题 过 
程 中 必须 从 下 一 个 阶段 的 转移 可 选项 中 选择 一 个 
才能 将 任务 继续 下 去 ; 当 被 试 不 知 如 何 选择 时 ， 是 
有 可 能 通过 猜测 来 进行 选择 的 。 Je ERES ES n] LZ 
试 迁 移 应 用 包含 猜测 参数 的 三 参数 IRT 模 型 来 处 理 
行动 序列 数据 中 可 能 存在 的 猜测 问题 。 最 后 ,由 于 
篇 幅 、 时 间 和 精力 所 限 , 模拟 研究 中 所 操纵 的 变量 
数量 或 水 平 数量 有 限 ,， 未 能 充分 挖掘 ASM 在 不 同 
理想 测验 条 件 下 的 表现 。 后 续 人 研究 也 可 尝试 通 过 操 
纵 其 他 变量 (如 , 任务 的 复杂 性 [包含 更 多 数量 问题 
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状态 ]) 来 进一步 探究 ASM 的 心理 计量 学 性 能 。 
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of Zhejiang Province; Key Laboratory of Intelligent Education Technology and Application of Zhejiang Province, Jinhua 321004, China) 


Abstract 

Process data refers to the human-computer or human-human interaction data recorded in computerized 
learning and assessment systems that reflect respondents' problem-solving processes. Among the process data, 
action sequences are the most typical data because they reflect how respondents solve the problem step by step. 
However, the non-standardized format of action sequences (1.e., different data lengths for different participants) 
also poses difficulties for the direct application of traditional psychometric models. Han et al. (2021) proposed 
the SRM by combining dynamic Bayesian networks with the nominal response model (NRM) to address the 
shortcomings of existing methods. Similar to the NRM, the SRM uses multinomial logistic modeling, which in 
turn assigns different parameters to each possible action or state transition in the task, leading to high model 
complexity. Given that actions or state transitions in problem-solving tasks have correct and incorrect outcomes 
rather than equivalence relations without quantitative order, this paper proposes two action sequence models 
based on binary logistic modeling with relatively low model complexity: the one- and two-parameter action 
sequence models (1P and 2P-ASM). Unlike the SRM, which applies the NRM migration to action sequence 
analysis, the 1P-ASM and 2P-ASM migrate the simpler one- and two-parameter IRT models to action sequence 
analysis, respectively. 

An illustrated example was provided to compare the performance of SRM and two ASMs with a real-world 
interactive assessment item, "Tickets," in the PISA 2012. The results mainly showed that: (1) the latent ability 
estimates of two ASMs and the SRM had high correlation; (2) ASMs took less computing time than that of SRM; 
(3) participants who are solving the problem correctly tend to continue to present the correct actions, and vice 
versa; and (4) compared with the fixed discrimination parameter of the SRM, the free estimated discrimination 
parameter of the 2P-ASM helped us to better understand the task. 

A simulation study was further designed to explore the psychometric performance of the proposed model in 
different test scenarios. Two factors were manipulated: sample size (including 100, 200, and 500) and average 
problem state transition sequence length (including short and long). The SRM was used to generate the state 
transition sequences in the simulation study. The problem-solving task structure from the empirical study was 
used. The results showed that: (1) two ASMs could provide accurate parameter estimates even if they were not 
the data-generation model; (2) the computation time of both ASMs was lower than that of SRM, especially under 
the condition of a small sample size; (3) the problem-solving ability estimates of both ASMs were in high 
agreement with the problem-solving ability estimate of the SRM, and the agreement between 2P-ASM and SRM 
is relatively higher; and (4) the longer the problem state transition sequence, the better the recovery of 
problem-solving ability parameter for both ASMs and SRM. 

Overall, the two ASMs proposed in this paper based on binary logistic modeling can achieve effective 
analysis of action sequences and provide almost identical estimates of participants' problem-solving ability to 
SRM while significantly reducing the computational time. Meanwhile, combining the results of simulation and 
empirical studies, we believe that the 2P-ASM has better overall performance than the 1P-ASM; however, the 
more parsimonious 1P-ASM is recommended when the sample size is small (e.g., 100 participants) or the task is 
simple (fewer operations are required to solve the problem). 

Keywords process data, action sequence, problem state transition, action sequence model, item response theory 
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网 络 版 附录 : 
附录 1 ASM 与 已 有 模型 对 比 

其 次 , BR SRM 外 , Xiao 和 Liu (2023) 提 出 的 状态 作答 模型 也 采用 了 多 分 类 建 模 。 表 AEMT SRM, 状态 作答 模 
型 和 ASM 之 间 的 对 比 。 首 先 ,鉴于 SRM 和 状态 作答 模型 均 为 多 分 类 建 模 ,两 者 均 涉 及 各 “选项 ”的 发 生 概率 ， 差 异 在 
于 SRM 人 允许 各 “选项 ”的 发 生 概 率 存 在 差异 ， 而 状态 作答 模型 假设 它们 相等 且 均 分 于 错误 “选项 ”的 数量 ; 因此 ， 状 态 作 
答 模 型 可 视 为 SRM 的 约束 模型 。 其 次 ， 当 任务 中 所 有 问题 状态 的 可 选项 数量 均 为 玉 = 2 时 ,三 个 模型 完全 等 价 。 另 外 ， 
同样 值得 注意 的 是 , 由 于 状态 作答 模型 与 SRM 类 似 , 也 对 部 分 模型 参数 进行 了 约束 ， 导 致 其 待 估计 参数 的 数量 并 不 
总 是 多 于 ASM. 

此 外 , 还 有 个 别 过 程 数 据 分 析 研 究 也 使 用 了 与 1P- / 2P-ASM 类 似 的 单 参数 或 两 参数 IRT 模型 的 形式 。 比 如 , Han 
和 Wilson (2022) 将 混合 Rasch 模型 或 混合 分 部 评分 模型 应 用 于 过 程 数据 分 析 , 不 仅 能 够 估计 学 生 的 潜在 能 力 ， 还 能 够 
对 学 生 的 问题 解决 过 程 进行 探索 性 分 类 。Shu 等 人 (2017) 提 出 的 马尔 可 夫 IRT 模型 同样 具有 与 2P-ASM 类 似 的 两 参数 
IRT 模型 (或 分 部 评分 模型 ) 形 式 。 但 上 述 两 个 模型 与 ASMR SRM 和 状态 作答 模型 ) 的 主要 区 别 在 于 : 上 述 两 模型 
分 析 的 数据 是 由 行动 序列 转化 得 到 的 具有 标准 化 数据 格式 的 数值 型 矩阵 ， 而 ASM 分 析 的 数据 是 保留 了 时 序 信息 的 且 
有 个 体 间 长 度 差 异 的 非 标准 化 格式 数据 。 比 如 ,前 者 为 保证 所 有 被 试 具有 相同 长 度 的 数据 ,， 常 把 重复 出 现 但 具有 前 后 
时 序 的 相同 具体 操作 序列 转换 为 频次 信息 并 使 用 多 级 评分 模型 进行 数据 分 析 , 但 该 转换 损失 了 过 程 数据 中 重要 时 序 


信息 。 


RAL 三 种 行动 序列 数据 分 析 模 型 的 对 比 


正确 状态 转移 错误 状态 转移 
模型 — 
1 2 3 ps K 
序列 作答 模型 Pi P? P; s Px 
状态 作答 模型 P, (- B)/(K -1) (- B)/(K -1) (- B)/(K -1) 
行动 序列 模型 Pi 1-P 


注 : 当前 问题 状态 共 包 含 玉 个 可 选项 ( 即 可 形成 玉 个 状态 转移 )， 其 中 第 一 个 可 选项 为 正确 状态 转移 ， 其 余 可 选项 为 错误 状态 转移 ; P 


附录 2 PISA 2012 Tickets 购 票 任务 介绍 

图 Al 是 PISA 2012 购 票 任务 的 截图 , 该 任务 包含 三 个 子 问 题 ， 其 中 CP038Q02: 购买 一 张 全 价 的 、 能 够 乘 车 两 
次 的 郊区 火车 票 ， 满 足 任务 要 求 的 被 试 获得 1 分 , 未 作答 或 者 未 达成 任务 要 求 的 被 试 得 0 分 。 图 A2 是 完成 该 任务 正 
确 的 行动 路 径 。 


TICKETS 


A train station has an automated ticketing machine, 
You use the touch screen on the right to buy a 
ticket. You must make three choices. 


o Choose the train network you want (subway 
or country). 


» Choose the type of fare (full or concession). 


o Choose a daily ticket or a ticket for a 

specified number of trips. Daily tickets give 

you unlimited travel on the day of purchase. 

If you buy a ticket with a specified number 

of trips, you can use the trips on different 

days. 
The BUY button appears when you have made 
these three choices. There is a CANCEL button that 
Can be used at any time BEFORE you press the 
BUY button. 


ZEDTRAINS ~ = — ZEDTRAINS ~ ~ 


4 


elect daily ticket or 
multiple individual trips 


图 A1 PISA 2012 Tickets 购 票 任务 截图 
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TICKETS 


A train station has an automated ticketing machine, 
You use the touch screen on the right to buy a 
ticket. You must make three choices. Select train network 


Select fare type 

» Choose the train network you want (subway 
or country). 

o Choose the type of fare (full or concession). 

9 Choose a daily ticket or a ticket for a 
specified number of trips. Daily tickets give 
you unlimited travel on the day of purchase. 
f you buy a ticket with a specified number 


of trips, you can use the trips on different 

days. 
The BUY button appears when you have made 
these three choices. There is a CANCEL button that 
can be used at any time BEFORE you press the 


ZEDTRAINS ma ZEDTRAINS ~ ~ 
yy 4 
Select dally ticket or The cost of your ticket is @ The cost of your ticketis: | 
zeds | 0 zeds 
| ee 医 . 
| 


| 


multiple individual trips 


ESTE 


Ee ZEDTRAINS ~ >~ - ZEDTRAINS >< ZEDTRAINS ~ ~ 


图 A2 CP038Q02 购 票 任务 问题 解决 流程 
ik: 红色 箭头 表示 了 完美 解决 该 问题 的 步骤 。 


附录 3 PISA 2012 购 票 任务 数据 中 的 异常 行动 序列 

K A2 展示 了 本 文 实证 研究 数据 当中 被 删除 的 一 条 异常 行动 序列 。 表 格 中 Cnt 代表 国家 编号 , SchoolID 代表 学 校 
编号 ，StdID 代表 学 生 编 号 。 异 常 的 行动 序列 已 经 用 加 粗 字 体 标 出 。 符 合 任务 状态 转移 规则 的 行动 序列 为 : 
Country trains 一 Full Fare 一 Daily 一 Cancel 一 Country trains 一 Full Fare 一 Individual Trip 2 一 Buy。 系 统 在 记录 
该 被 试 操作 的 过 程 中 出 错 , 使 得 被 试 的 行动 序列 以 倒序 被 重复 记录 了 一 次 。 限 于 实证 研究 中 数据 量 庞 大 ,难以 对 数据 
集中 的 所 有 行动 序列 一 一 纠正 ， 因 此 不 符合 任务 预 设 规则 的 行动 序列 均 被 删除 掉 了 。 


表 A2 异常 行动 序列 示例 


Cnt SchoolID StdID Event Time Event Number Action 
ARE 0000068 01770 START ITEM 843.1000 1.00 NULL 
ARE 0000068 01770 ACER EVENT 885.2000 2.00 country trains 
ARE 0000068 01770 ACER EVENT 892.3000 3.00 full fare 
ARE 0000068 01770 ACER EVENT 894.1000 4.00 daily 
ARE 0000068 01770 ACER EVENT 904.5000 5.00 Cancel 
ARE 0000068 01770 ACER EVENT 914.7000 6.00 country trains 
ARE 0000068 01770 ACER EVENT 915.0000 7.00 full fare 
ARE 0000068 01770 ACER EVENT 915.9000 8.00 individual 
ARE 0000068 01770 ACER EVENT 917.5000 9.00 trip 2 
ARE 0000068 01770 ACER EVENT 923.0000 10.00 Buy 
ARE 0000068 01770 END ITEM 928.5000 11.00 NULL 
ARE 0000068 01770 END ITEM 928.5000 12.00 NULL 
ARE 0000068 01770 ACER EVENT 923.0000 13.00 Buy 
ARE 0000068 01770 ACER EVENT 917.5000 14.00 trip 2 
ARE 0000068 01770 ACER EVENT 915.9000 15.00 individual 
ARE 0000068 01770 ACER EVENT 915.0000 16.00 full fare 
ARE 0000068 01770 ACER EVENT 914.7000 17.00 country trains 
ARE 0000068 01770 ACER EVENT 904.5000 18.00 Cancel 
ARE 0000068 01770 ACER EVENT 894.1000 19.00 daily 
ARE 0000068 01770 ACER EVENT 892.3000 20.00 full fare 


ARE 0000068 01770 ACER EVENT 885.2000 21.00 country trains 
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附录 4 ”后 验 预测 值 (ppp) 计 算 逻 辑 
对 于 本 人 研究 , 模型 拟 合 通过 后 验 预 测 值 (ppp) 进 行 评估 。 选 择 观 测 值 的 和 ( 0() ) 作 为 统计 检验 量 , R AS 呈现 了 
SRM, 1P-ASM, 2P-ASM 计算 该 统计 量 的 规则 。 值 得 注意 的 是 ,状态 转移 的 观测 值 实际 上 是 分 类 数据 ， 我们 需要 比较 
4,000 次 MCMC 抽样 中 每 个 样本 的 真 值 和 重复 抽样 值 ， 因 此 ,状态 转移 的 真 值 和 抽样 值 将 会 被 重新 编码 为 0 或 1， 即 
1 表示 正确 的 状态 转移 , 0 表示 错误 的 状态 转移 , ppp 值 即 为 真 值 的 O 统计 量 大 于 抽样 值 O 统计 量 的 比例 。 如 果 模 型 与 
数据 拟 合 , ppp 值 将 接近 于 0.5。 
表 A3 ppp 值 计 算 逻 辑 


模型 统计 量 
SRM 观测 值 Le 
O(S4,8) X X Sap > S, 
n=l p=l 
抽样 值 MC 
0874,89) =Y Y SS > S 
n=l p=l 
1P-ASM 观测 值 NC 
OX 8) - Im 
n=l p=l 
抽样 值 C 
OF, =>) Fs, 
n=l pz 
2P-ASM 观测 值 2. 
OYAN 0)= > Yass, 
n=l p=l 
抽样 值 MC 
Ove T 
n=l pz 


UE: A 表示 状态 转移 倾向 参数 ，B 表示 状态 作答 容易 度 ，y 表示 状态 作答 区 分 度 ， 0 表示 问题 解决 能 力 ,' 表示 第 ' 次 抽样 ， 
Sp x Snp =! 或 者 了 ss =! 表示 正确 的 状态 转移 ， Sap > =0 或 者 了 ss =0 表示 错误 的 状态 转移 。 


附录 5. 实证 研究 中 参数 估计 轨迹 图 和 后 验 分 布 图 
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图 A3 1P-ASM 截 距 参数 的 轨迹 图 
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图 A4 1P-ASM 截 距 参 数 的 后 验 分 布 图 
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图 AS 2P-ASM 截 距 参数 的 轨迹 图 
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图 A6 2P-ASM 截 距 参数 的 后 验 分 布 图 
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图 A7 SRM 状态 转移 倾向 参数 的 轨迹 图 
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图 A8 SRM 状态 转移 倾向 参数 的 后 验 分 布 图 


附录 6 ”模拟 研究 补充 内 容 

模拟 生成 所 有 被 试行 动 序列 的 具体 步骤 如 下 : 

(1) 依据 图 6 界定 该 任务 的 最 优 行动 序列 和 所 有 正确 /错误 状态 转移 ; 

(2) 依次 生成 SRM 中 各 模型 参数 ， 其 中 ， 

a) 被 试 的 问题 解决 能 力 参 数 的 “ 真 值 ? 依 标准 正 态 分 布 随机 生成 ，0, ~ N(0,1) ; 

b) 正确 状态 转移 和 错误 状态 转移 对 应 的 区 分 度 参数 六 的 “ 真 值 ” 分 别 设 定 为 1 和 -1; 

c) 状态 转移 倾向 参数 4 、 的 “ 真 值 * 设 定 综合 参考 了 实证 研究 中 的 转移 倾向 参数 的 估计 值 ( 见 附录 表 A8) 和 Han 
等 人 (2022) 的 模拟 研究 设 定 。 附 录 表 AA 呈现 了 短 序列 和 长 序列 条 件 下 所 有 状态 转移 倾向 参数 的 “ 真 值 ” 遵循 Han 等 
人 (2022) 设 定 ， 本 研究 中 状态 转移 倾向 参数 的 “ 真 值 ”为 固定 值 ; 

(3) 把 所 有 参数 “ 真 值 ” 带 入 SRM， 可 计算 得 到 所 有 被 试 呈 现 所 有 状态 转移 的 概率 和 矩阵， 其 中 行为 被 试 ， 列 为 


(4) 设 定 所 有 被 试 从 初始 状态 S 开始 , 根据 图 6 中 的 任务 结构 ,在 状态 S 下 依据 该 被 试 呈 现 SA 和 SF 的 概率 , 根 
据 类 别 分 布 (categorical distributiom) 随 机 生成 第 一 阶段 到 第 二 阶段 的 状态 转移 ( 即 第 二 阶段 选择 了 A 还 是 F); Are PES 
Y A, 则 在 状态 A 上 依据 被 试 呈现 AB、AG 和 AS 的 概率 ， 继 续 根 据 类 别 分 布 随机 生成 第 二 阶段 到 第 三 阶段 的 状态 转 
移 ( 即 第 三 阶段 选择 了 B、G 还 是 S) 以 此 类 推 , 直到 抵达 目标 状态 J, 完成 该 被 试 的 行动 序列 生成 。 往 复 循 环 ,生成 
所 有 被 试 的 行动 序列 。 


第 8 期 PL 55. 问题 解决 任务 中 行动 序列 的 二 分 类 建 模 : 单 /两 参数 行动 序列 模型 
表 AA ”模拟 研究 中 状态 转移 倾向 参数 的 真 值 

ie 短 序列 。 长 序列 ， 短 序列 。 长 序列 短 序列 长 序列 
本 0.496 0.410 0.472 0.585 -1.001 0.965 
Asp —0.469 —0.459 Ac 0.451 0.809 Ane 1.013 —1.004 
Aan 1.468 1.503 1 0.094 0.115 Aes —0.481 0.522 
de {9375 -1.096 PA —0.993 -1.023 Jon 0.432 —0.599 
Ls -1.091 -0.456 0.390 PM -0.171 0.223 
Inc 0.381 —0.932 i. 0.678 "n 0.171 —0.134 
Aen —0.146 0.240 0.090 d 0.028 -0.114 
Ans 一 0.273 0.758 Ag; —0.227 Ary —0.159 0.431 
des -1.001 -1.481 rm 0.149 Ae 0.071 -0.412 


注 : 正确 状态 转移 的 参数 已 加 粗 。 


附录 7 参数 估计 补充 说 明 与 鲁 棒 性 分 析 结 果 
本 研究 使 用 R 软件 中 的 Rstan 包 完成 MCMC 参数 估计 , Rstan 默认 使 用 No-U-Turn Sampler (NUTS) (Hoffman & Gelman, 

2014) 作 为 抽样 方法 。 表 A5~A7 和 图 A9 呈现 了 两 模型 参数 估计 对 无 信息 先 验 分 布 和 有 信息 先 验 分 布 的 鲁 棒 性 分 析 结 果 , 结 

果 表 明 无 论 先 验 分 布 包含 的 信息 量 如 何 ， 两 模型 的 参数 估计 结果 均 具 有 较 高 鲁 棒 性 。 正 文中 所 有 参数 估计 均 采 用 有 信息 先 

验 分 布 。 参 数 估计 代码 及 示例 数据 已 经 分 享 在 https://osf.io/3y2xr/?view_only=7bc05393a51f472aa2462214ba588063_ 

表 AS 模拟 研究 中 1P-ASM 截 距 参数 在 不 同 信息 水 平 下 的 估计 结果 


m 有 信息 先 验 无 信息 先 验 
均值 标准 差 95%HPD 均值 标准 差 95%HPD 
Bs 0.941 0.050 (0.844, 1.038) 0.947 0.049 (0.852, 1.042) 
Ba 1.613 0.068 (1.484, 1.751) 1.623 0.069 (1.492, 1.758) 
Ps —1.595 0.063 (71.720, —1.470) —1.603 0.062 (71.725, —1.480) 
Be —2.383 0.117 (72.618, —2.161) -2421 0.118 (72.650, —2.195) 
f —1.344 0.140 (71.614, —1.061) -1.377 0.143 (71.660, —1.094) 
P. 0.069 0.168 (70.256, 0.396) 0.070 0.170 (—0.264, 0.404) 
Br 1.801 0.087 (1.632, 1.978) 1.820 0.086 (1.654, 1.982) 
Bs 0.560 0.115 (0.332, 0.782) 0.573 0.122 (0.328, 0.809) 
Ba —0.214 0.087 (70.385, —0.040) —0.212 0.087 (70.385, —0.038) 
fi 0.839 0.154 (0.547, 1.139) 0.867 0.154 (0.567, 1.166) 


TE: 有 信息 水 平 下 ,， 截 距 参 数 的 先 验 分 布 为 标准 正 态 分 布 N(0,1) 。 无 信息 水 平 下 ， 截 距 参 数 的 先 验 分 布 服从 均值 为 0， 标准 差 为 10 
的 正 态 分 布 N(0,100) 。 所 有 结果 均 为 “500- 长 序列 ”条 件 下 重复 一 次 得 到 的 估计 值 。 


X AG ”模拟 研究 中 2P-ASM 截 距 参 数 在 不 同 信息 水 平 下 的 估计 结果 


m 有 信息 先 验 无 信息 先 验 
均值 标准 差 95%HPD 均值 标准 差 95%HPD 
Bs 1.061 0.064 (0.937, 1.187) 1.069 0.068 (0.937, 1.210) 
Ba 1.679 0.084 (1.517, 1.844) 1.694 0.086 (1.529, 1.864) 
Bs -1.910 0.109 (72.125, —1.699) —1.933 0.113 (72.167, -1.723) 
Be -2.581 0.310 (—3.220, —2.004) -2.876 0.375 (73.665, —2.197) 
Bo -1.026 0.305 (71.651, —0.463) —0.987 0.531 (71.900, —0.005) 
Be —0.135 0.291 (70.719, 0.413) —0.169 0.331 (—0.863, 0.454) 
Br 2.212 0.168 (1.904, 2.554) 2.288 0.174 (1.967, 2.643) 
Bs 1.247 0.247 (0.780, 1.750) 1.374 0.268 (0.896, 1.936) 
Ba -0.139 0.104 (-0.341, 0.064) -0.130 0.108 (—0.338, 0.078) 
B, 1.238 0.250 (0.772, 1.745) 1.356 0.275 (0.860, 1.933) 
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表 A7 ”模拟 研究 中 2P-ASM 斜率 参数 在 不 同 信息 水 平 下 的 估计 结果 


有 信息 先 验 无 信息 先 验 
均值 标准 差 95%HPD 均值 标准 差 95%HPD 

ys 2.165 0.145 (1.902, 2.463) 2.185 0.149 (1.908, 2.498) 
y 2.268 0.208 (1.885, 2.703) 2.308 0.213 (1.909, 2.753) 
Vs 2.075 0.186 (1.736, 2.459) 2.121 0.193 (1.760, 2.510) 
Yc 1.499 0.315 (0.921, 2.162) 1.772 0.374 (1.102, 2.560) 
yp 0.913 0.298 (0.382, 1.537) 0.858 0.535 (0.000, 1.764) 
Yr 1.722 0.494 (0.823, 2.764) 1.810 0.562 (0.829, 3.024) 
Yr 2.125 0.246 (1.655, 2.624) 2.238 0.254 (1.770, 2.758) 
Wes 2.567 0.390 (1.866, 3.379) 2.764 0.431 (1.978, 3.695) 
Fh 2.663 0.282 (2.151, 3.254) 2.699 0.287 (2.190, 3.310) 
7 2.188 0.418 (1.419, 3.045) 2.383 0.466 (1.559, 3.387) 


注 : 有 信息 水 平 下 ， 和 斜率 参数 的 先 验 分 布 服从 均值 为 0, 标准 差 为 1 的 对 数 正 态 分 布 log(7y)~ N(0,1) 。 无 信息 水 平 下 ， 和 斜率 参数 的 先 
验 分 布 服从 均值 为 0, 标准 差 为 10 的 对 数 正 态 分 布 log(7) ~ N(0,100) 。 
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图 AS 模拟 研究 中 1P-ASM 和 2P-ASM 在 不 同 信息 水 平 下 的 能 力 估计 值 对 比 


附录 8 实证 研究 SRM 状态 转移 倾向 参数 估计 结果 


A AS 实证 研究 中 SRM 参数 估计 结果 


状态 转移 倾向 参数 均值 标准 差 95%HPD 状态 转移 倾向 参数 ”均值 标准 差 95%HPD 

a 0.587 0.035 (0.519, 0.656) dn 0.886 0.107 (71.101, —0.677) 
m -0.587 0.035  (=0.656, -0.519) Aon 0.790 0.136 (0.523, 1.067) 
n 1.740 0.068 (1.608, 1.873) Res 0.052 0.127 (-0.201, 0.308) 
hic ~0.003 0.065 (70.129, 0.125) An —0.843 0.157 (71.153, -0.542) 
dus -1.737 0.007 . (-1.935, -1.554) PM -0.680 0.064 (70.805, —0.557) 
d 1.586 0.075 (1.443, 1.738) As 0.680 0.064 (0.557, 0.805) 
T 0.165 0.076 (0.011, 0.320) dox -0.761 0.064 (70.886, —0.635) 
Ass -1.751 0.120 (=1.998, —1.523) des 0.761 0.064 (0.635, 0.886) 
dom 1.785 0.082 (1.625, 1.946) "m 0.373 0.064 (0.247, 0.503) 
Acr —0.049 0.004  (-0.231, 0.132) ds ~0.666 0.054 (70.773, 0.560) 
de -1373 0.153  (-1.688, 1.086) FH 0.293 0.045 (0.207, 0.381) 
Aci —0.364 0.105 (-0.576, —0.163) his 0.171 0.089 (-0.007, 0.345) 
P 1.589 0.079 (1.433, 1.744) As -0.171 0.089 (70.345, 0.007) 
Fen ~0.702 0.099  (-0.897, —0.513) 


ik: 95% HPD = 95% 最 高 概率 密度 ( 贝 叶 斯 可 信 区 间 ); 粗 体 为 正确 状态 转移 。 


